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摘 要 : Pawlak 粗糙 集 的 知识 约 简 包 括 对 决策 表 的 知识 约 简 和 对 信息 表 的 知识 约 简 。 作 为 Pawlak 粗 燃 集 的 扩展 ， 邻 
域 粗 糙 集 在 针对 决策 表 的 属性 约 简 方 面 应 用 广泛 ， 而 针对 信息 表 的 属性 约 简 方 面 应 用 鲜 少 。 为 了 设计 一 种 适用 于 信息 
表 的 属性 约 简 算 法 , 根据 Pawlak 粗糙 集 的 信息 表 知 识 约 简 标 准 ， 首 先 提 出 一 种 邻 域 粗 糙 集 的 信息 表 知 识 约 简 标准 ， 然 
后 根据 这 种 标准 ， 结 合 贪 心思 想 ， 进 一 步 提出 了 一 种 适用 于 聚 类 任务 的 信息 表 属 性 约 简 算法 。 与 主 成 分 分 析 (principal 
component analysis，PCA) 算 法 相 比 ， 实 验 结果 表明 用 该 算法 对 数据 集 降 维 后 ， 得 到 的 属性 约 简 集合 的 属性 个 数 较 多 ， 
K-means 算法 根据 属性 集合 进行 聚 类 的 精度 较 高 。 实 验 结 果 证 明 该 算法 能 有 效 地 应 用 于 信息 表 的 属性 约 简 方面 。 
关键 词 : 降 维 ; 聚 类 ; 信息 表 ; 邻 域 粗 糙 集 ; 属性 约 简 
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Dimension reduction for information tables based on 
knowledge partition of neighborhood rough set 
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Abstract: Knowledge reduction of Pawlak rough set includes two parts: knowledge reduction for decision tables and knowledge 


reduction for information tables. As an extension of Pawlak rough set, neighborhood rough set is widely applied to attribute 


reduction for decision tables, but rarely applied to attribute reduction for information tables. In order to design an attribute 
reduction algorithm suitable for information tables, this paper first proposes a knowledge reduction criterion of neighborhood 
rough set for information tables based on the knowledge reduction criterion of Pawlak rough set. Then, according to this criterion, 
anew attribute reduction algorithm for information tables, applicable to clustering, is proposed with Greedy Strategy. Compared 
with Principal Component Analysis(PCA) algorithm, the experimental results show that by using this proposed algorithm to 
reduce dimensions of data sets, the number of attributes in the reduction sets is more, and the accuracy of K-means algorithm is 
higher according to the reduction sets, which proves this proposed algorithm can be effectively applied to attribute reduction for 
information tables. 
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是 这 种 等 价 划分 只 适用 于 离散 型 的 数据 ， 而 在 现实 应 用 中 ， 
需要 处 理 的 数据 往往 是 数值 型 的 ， 这 种 局 限 清 组 了 粗糙 集 理论 
将 性 质 、 特 征 相似 的 样本 归属 到 同一 类 别 的 过 程 被 称 为 聚 ”的 应 用 .为 此 ,ZadehBl 提 出 了 信息 粒 化 和 粒度 计算 的 概念 .Lin 上 
类 。 随 着 信息 时 代 的 高 速 发 展 ， 聚 类 所 面临 的 难题 不 仅 是 “ 数 。” ”在 信息 粒 化、 粒度 的 基础 上 提出 了 邻 域 模型 的 概念 。Hu 等 人 器 
据 爆炸 ”问题 ， 还 有 更 重要 的 因 高 维 数据 产生 的 “维度 灾难 ” 基于 邻 域 粒 化 和 粗糙 逼近 的 概念 ， 进 一 步 提出 的 邻 域 粗 糙 模 型 
现象 由。 因此 , 在 尽 可 能 保持 知识 表达 能 力 不 变 的 前 提 下 , 删除 57 可 以 处 理 数值 型 的 数据 , 进一步 拓展 了 粗糙 集 理论 的 应 用 范 
数据 集中 的 元 余 知识 ， 在 一 定 程度 上 消除 噪声 数据 的 干扰 ,对 围 。 


0 引言 


提高 聚 类 算法 的 效率 是 十 分 有 意义 的 。 知识 约 简 是 粗糙 集 理论 的 一 个 重要 研究 领域 。Pawlak 粗粮 
粗糙 集 理论 在 海量 高 维 复杂 数据 的 预 处 理 方面 有 着 广泛 的 集 的 知识 约 简 包 括 对 决策 表 和 信息 表 的 知识 约 简 ， 决 策 表 和 信 
应 用 。 经 典 的 Pawlak 粗糙 集中 通过 等 价 划 分 对 数据 进行 处 理 ， 息 表 最 大 的 区 别 在 于 决策 属性 的 有 无 ,作为 Pawlak 粗糙 集 的 扩 
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展 ， 邻 域 粗 烽 集 在 针对 决策 表 的 属性 约 简 方面 应 用 广泛 B19。 

例如 ，HuD 提 出 了 基于 前 向 贪心 的 决策 表 属 性 约 简 算法 ， 刘 名 
结合 粒子 群 算法 提出 了 高 维 数据 集 快速 约 简 算法 ; Liu9 根 据 映 
射 划分 提出 了 快速 决策 表 属 性 约 简 算 法 等 等 。 这 类 算法 依赖 于 
邻 域 粗糙 集 的 正 域 计 算 ， 而 正 域 计算 依据 决策 属性 ， 即 样本 类 


oy 


ChinaXiv 合 作 期 干 


彭 满 然 ， 等 : 基于 邻 域 粗 糙 集 下 知识 划分 的 信 FE 


={7,%K ,2 ， 且 称 U 为 论 域 。 定 义 U 上 的 样本 尼 的 
- 邻 域 为 6(%)={xj|xjeU,d(x,x))<56}， 其 中 5>0。 

+ 生成 的 5 - 邻 域 信息 粒子 ， 简 称 为 雹 的 邻 域 粒子 。 
根据 以 上 定义 , 对 于 知识 库 K=(U,B) , 若 EcB, 且 Ez#8@， 
则 论 域 0 根据 关系 E 被 划分 成 了 若干 个 邻 域 信息 粒子 。 例 如 ， 


别 是 已 知 的 情况 下 ， 所 以 针对 决策 表 的 属性 约 简 算法 并 不 适用 
于 信息 表 。 
目前 ， 邻 域 粗糙 集 针 对 信息 表 的 属性 约 简 方 面 应 用 鲜 少 
为 了 扩展 邻 域 粗糙 集 对 信息 表 的 应 用 ， 基 于 邻 域 粗糙 集 下 的 知 
识 划 分 ， 设 计 一 种 针对 信息 表 ， 适 用 于 聚 类 任务 的 属性 约 简 算 
法 , 本文 根 据 Pawlak 粗糙 集 对 信息 表 进 行 知识 约 简 的 标准 ， 首 
先 提 出 了 一 种 适用 于 数值 型 信息 表 的 知识 约 简 标准 ， 然 后 在 此 
标准 的 基础 上 ， 结 合 贪心 思想 ， 进 一 步 提出 了 一 种 基于 前 向 贪 
心 的 信息 表 属 性 约 简 算法 (fast attribute reduction algorithm for 
information table, FARAIT)， 最 后 通过 与 为 无 监督 性 学 习 的 主 成 
分 分 析 (PCA) 算 法 相 比 ， 实 验 验证 了 本 文 算法 的 有 效 性 。 


1 ”相关 概念 


1.1 Pawlak 粗糙 集 下 的 知识 划分 加 
经 典 的 Pawlak 粗糙 集 认为 知识 是 有 粒度 的 , 它 
ne 


Cs 
7 


是 一 种 对 论 


忆 ={fap06 根据 关系 已 被 划分 为 
(mh ) 
1.3 ”粗糙 集 的 知识 表达 系统 外 

定义 5 知识 表达 系统 。 称 四 元 组 KRS =(U,A,V,f) 是 一 个 
知识 表达 系统 。 其 中 U0={%,%,…%} 为 样本 的 非 空 有 限 集合 ， 称 


为 论 域 ， 4= {al as 4} 为 属性 的 非 空 有 限 集合 ; Y = UW 表示 


全 体 属 性 的 值 域 ,，V 为 属性 
一 个 映射 ， 称 为 信息 函数 。 

在 知识 表达 系统 KRS 中 , 令 A=CUD(CI Dz 儿 )， 其 中 
C 称 为 条 件 属性 ，D 称 为 决策 属性 。 若 Dz 名 ， 则 知识 表达 系 
统称 为 决策 表 (decision table,DT)， 和 否则 称 为 信息 表 (information 
table,IT)。 一 般 来 说 ,决策 表 用 于 分 类 任务 , 信息 表 用 于 聚 类 任 
务 。 


2 ”本 文 提出 的 信息 表 知识 约 简 标 准 


ae 4 的 值 域 ，f 表示 UxA 一 V 的 


定义 1 信息 粒 。 设 U=[x,%,… 忆 为 样本 的 非 空 有 限 集合 ， 在 保持 知识 表达 系统 的 知识 表达 能 力 不 变 的 前 提 下 ， 删 除 
称 为 论 域 。 论 域 U 的 任何 一 个 子 集 XcU ， 称 为 U 的 一 个 概念 。 ”知识 系统 中 的 宛 余 知识 , 称 为 知识 约 简 , 对 于 一 个 信息 表 而 言 ， 
或 范畴 ， 且 每 一 个 概念 表示 的 一 个 信息 粒 。 不 同 的 知识 就 是 条 件 属性 的 不 同 集合 ， 宛 余 知识 就 是 可 删除 的 
定义 2 不 可 分 辨 关系 。 给 定 一 个 论 域 U 和 U 上 的 一 簇 等 属性。 
价 关系 S$， 若 Pc5， 且 Pz@B， 则 I P(P 中 的 所 有 等 价 关系 的 定义 6 Pawlak 粗糙 集 的 信息 表 知识 约 简 标准 。 
交集 ) 仍 然 是 论 域 U 上 的 一 个 等 价 关 系 , 且 称 为 了 上 的 不 可 分 辨 ”个 信息 表 IS=(U,C,V,f)，vBcC，vaeB， 若 We 
人 i -人 的 划分 和 根据 属性 集合 8 的 划分 不 一 致 ， 则 称 属性 
ee 是 属性 集合 8 中 不 可 删除 的 属性 ， 反 之 则 称 属性 a 是 属性 集 
根据 以 上 定义 ， 对 于 知识 库 K=(U,8) ，8 是 U 上 的 一 簇 等 ” 合 B 中 可 删除 的 属性 。 
价 关系 , 车 EcB8，, 且 E#@，U/1IND(E)={[xJwoin |vreU} 表 示 与 根据 定义 2 和 4 可 知 ， 邻 域 粗粮 集 下 的 知识 划分 和 Pawlak 


等 价 关系 IND(E) 相 关 的 知识 ， 即 论 域 0 根据 等 价 关系 E 被 划分 
成 了 若干 个 等 价 类 息 粒 )。 例 如 ， 忆 = 根据 关 
系 互 被 划分 为 { 人 zj 。 
1.2 ” 邻 域 粗 糙 集 下 的 知识 划分 名 
Pawlak 粗糙 集 通 过 等 价 关 系 保证 了 粒度 计算 的 进行 ， 这 种 
等 价 关 系 在 离散 型 的 数据 集中 可 以 直接 构造 ， 在 数值 型 的 数据 
居中 却 不 能 。 作 为 Pawlak 粗粮 集 的 扩展 , 邻 域 粗糙 集 在 处 理 数 
型 数据 集 时 得 到 了 很 好 的 应 用 。 
定义 3 度量 计算 。 给 定 n 维 实数 空 
任意 两 个 点 各 =X,XosL ,Xi) 和 Xj) 二 (Xj 
d(x,X)) 是 R* 上 的 一 个 度量 计算 ， 满 足 : 


Rn 


曾 
峰 


= 间 R"， 对 于 空间 中 的 
wi 


定义 4 邻 域 粒 化 。 在 实数 空间 上 ， 定 义 样本 的 非 空 有 限 


粗糙 集 下 的 知识 划分 不 同 ,， 相 较 Pawlak 粗糙 集 , 邻 域 粗糙 集 下 
的 知识 划分 将 论 域 上 的 等 价 关系 变 成 了 覆盖 关系 。 如 果 对 于 邻 
域 粗糙 集 下 的 知识 划分 直接 引用 定义 6， 由 于 论 域 中 的 每 个 样 
本 都 形成 了 一 个 邻 域 信 息 粒 子 ， 且 每 个 邻 域 信息 粒子 中 样本 不 
一 ， 则 在 判断 定义 6 中 两 种 划分 是 否 一 致 时 ， 比 较 过 程 不 便 且 
计算 量 较 大 。 针 对 这 个 问题 ， 考 虑 到 邻 域 粗 糙 集 下 
特性 ， 本 文 将 知识 划分 的 变化 做 一 个 等 价 转换 ， 提 出 定理 1。 

定理 1 对 于 一 个 信息 表 而 言 ， 对 于 某 个 5 取 值 ， 在 邻 域 
粗糙 集 知识 约 简 的 过 程 中 ， 判 断 论 域 的 知识 划分 是 否 一 致 可 以 
转换 为 判断 互 为 邻 域 样本 的 对 数 是 否 一 至 

证 明 对 于 一 个 如 表 1 所 示 的 数值 化 信息 表 ， 根 据 全 属性 
集合 C， 可 以 将 论 域 U={1,b,…, 而 } 映射 成 实数 空间 上 的 半 个 灵 
维 向 量 的 集合 ， 即 为 = (valuewvalue…svaluew) 。 同 理 , 根据 部 分 
属性 集合 B (Y8E C) ， 亦 可 以 将 其 映射 成 4 个 11<1<m) 维 向 量 


的 集合 。 
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表 1 一 个 数值 化 信息 表 
样本 ”属性 1 属性 2 属性 mm 
A valuel value， value 
x value,, Value,, value,, 
x value,, value， Value, 


对 于 根据 属性 集合 8 得 到 的 n 个 向 量 


合 ， 在 实数 空间 上 


根据 邻 域 粒 化 的 概念 ， 论 域 U 


时 减少 4 对 应 的 纯 


能 得 到 一 个 对 应 的 知识 划分 ， 即 
一 个 个 邻 域 信息 粒子 ， 根 据 属性 集合 8-{q} (vae B) (各 向 量 局 
# 度 ) 同 样 可 以 得 到 一 个 新 的 知识 划分 ,判断 属 


性 4 是 否 可 删除 的 关键 在 于 判断 两 种 知识 划分 是 否 一 致 。 可 知 ， 
知识 约 简 在 实数 空间 上 是 一 个 降 维 的 过 程 。 

为 了 方便 说 明 ， 用 5 个 向 量 代表 nn 个 1 维 向 量 ， 即 
U={1, 加 , 轧 , 叉 ,加 }) ， 用 二 维 空间 代表 1 维 的 高 维 空间 ， 用 一 维 空 
间 代 表 降 维 后 的 1-1 维 的 低 维 空间 ， 以 此 对 约 简 时 知识 划分 的 
变化 过 程 进行 分 析 。 其 中 ,减少 的 维 数 对 应 待 判 断 是 否 可 删除 


的 属性 。 


(a) 知 识 划分 I 


(b) 知识 划分 I 


图 


1 所 示 ， 虚 线 


如 图 
(co) 表示 低 维 空间 。 在 如 (a) 所 示 的 高 维 


{ {XxX}, {Xo, XX3}, {XX }, {Xa, Xs}, {Xs, Xa}} » 互 为 邻 域 样本 的 对 数 为 3， 
分 别 是 {764, 太 ,5, 太 ),(%4, 加 )} 。 然后 , 不 考虑 待 判 


(0) 知 识 划分 II[ 


1 U 在 降 维 时 的 知识 划分 过 程 


空间 中 ， 


圆圈 代表 邻 域 ，(a)、(b) 表 示 高 维 空间 ， 


U 被 划分 为 


断 是 否 可 删除 属 


性 对 应 的 允 


作 数 ， 得 到 如 (c) 所 示 的 低 维 空间 和 市 
比较 (a)、(c)， 发 现 前 后 划分 是 一 致 的 ， 互 为 邻 域 样本 的 对 数 是 


上 应 


的 U 的 划分 ， 


彭 潇 然 ， 


ChinaXi 


iv 其 
人 人 信 由 利 


分 的 信息 表 降 维 


设 


对 而 言 ， 计 算 互 为 邻 域 样本 的 对 数 是 较 容易 的 ， 利 用 上 


阵 或 下 三 角 和 矩阵 就 能 完成 该 计算 。 根 据 定 


邻 域 样本 的 对 数 是 否 一 致 。 
相 

三 角 抵 

得 到 一 

提出 一 种 邻 域 粗 糙 集 的 信息 表 知识 约 简 标准 。 
标准 1 


里 1， 本 文 能 


种 较 直 观 且 方便 的 判断 知识 划分 是 否 变化 的 依据 ， 据 此 


邻 域 粗糙 集 的 信息 表 约 简 标 准 。 给 定 信息 表 


IS=(U,C,V,f) » vBEC 9 vaeB 9 基于 邻 域 粗糙 集 ， 设 在 论 域 
U 根据 属性 集合 8 划分 的 邻 域 信息 粒子 中 


数 为 ww ， 在 论 域 0 根据 
为 邻 域 样本 的 对 数 为 Na 。 
致 , 则 可 判定 属性 4 是 属性 集合 C 中 可 删 
划分 不 一 致 ， 则 可 判定 属性 4 


中 ， 互 


即 前 后 


属性 集合 B-({a 


的 属性 。 


3 
定 


若 论 域 
且 
B 是 C 


根 


基于 前 向 贪心 的 信息 表 属 性 约 


义 7 四 
U 根据 属 


属性 集合 B 中 任意 属性 4 均 是 不 可 


的 一 个 属性 约 简 。 


属性 约 简 。 给 定 信 ， 
性 集合 8 的 划分 和 根据 属 


居 定 义 7 可 知 ， 创 


量 . 后 
征 癌 


划 


的 属 


FE 


| 除 


| 对 信 


Ar 全 后 


上 间 异 


性 集合 


属性 ， 


， 互 为 邻 域 样本 的 对 
分 的 邻 域 信息 粒子 
若 Na 一 Noy ， 即 前 后 划分 一 
除 
性 集合 C 中 不 可 删除 


Na > Noy， 


性 。 若 Nan 


法 


筷 表 IS=(U,C,V,f), BEC， 


C 的 划分 一 致 
则 称 属性 集合 


A 


息 表 的 属性 约 简 算法 的 目 


的 是 找 


到 一 个 部 分 属性 集 ， 论 域 根 据 其 形成 的 知识 划分 与 根据 原 属 性 


的 知识 划分 相同 。 


据 定义 7 和 标准 1， 


[0 育 删 法 bd 


属性 作 


分 
某 一 数 


约 简 结果 中 包含 k 个 属性 。 则 算法 最 好 的 情况 是 前 


析 上 述 “ 讶 贡 


个 数 扩 
| 除 判 断 ， 若 可 以 ， 则 
性 集 重 复 挑选 且 判 断 的 动作 ; 


居 集 的 不 


属性 和 


三 | 
全 
并， 


从 属性 集中 
若 不 可 以 ， 


种 较 易 想 到 的 算法 。 
挑选 其 中 一 个 属 


屋 


性 作 


删除 属性 ， 
则 对 属性 集中 剩 下 的 


判断 。 终 止 的 条 伯 


是 属性 集中 所 有 元 素 均 是 不 本 


据 集 有 DU 个 样本 ，m 个 属性 ， 依 次 对 各 


I 法 ”的 时 间 复 杂 度 。 设 在 该 算法 下 ， 假 设 


属 必 


进行 判断 ， 
m-k 个 属性 


以 样本 亏 为 代表 分 析 
维 空间 中 属于 元 的 圆圈 ( 邻 


降 旨 


或 ) 内 的 样本 点 ， 


因为 ; 


相同 的 ， 这 说 明 该 属性 是 可 删除 的 ， 若 高 维 空间 是 如 (pb) 所 示 的 
高 维 空间 ，V 被 划分 为 {23 人 jj， 互 为 邻 


或 样本 的 对 数 为 2， 分 别 是 {ooz)00,x)} 。 此 时 比较 (b)、(0)， 
发 现 前 后 划分 是 不 一 致 的 ， 相 比 前 者 ， 互 为 邻 域 样本 的 对 数 增 
加 了 ， 与 前 者 不 相同 ， 这 说 明 该 属性 是 不 可 删除 的 。 

过 程 : 在 降 维 过 程 中 ， 原 本 在 高 


成 少 了 一 维 ， 


其 与 区 的 欧式 距离 进一步 减 


少 ， 所 以 在 降 维 


后 的 


EK 


i 空间 中 背 


定 仍 在 圆圈 中 ; 原本 不 在 圆圈 


内 的 样本 点 ， 因 为 其 与 闷 的 欧式 


距离 的 减少 ， 在 降 维 后 会 出 现 仍 不 在 


圆圈 内 和 在 圆圈 内 这 两 种 


情况 。 即 对 于 互 为 邻 域 样本 的 对 数 而 言 ， 只 有 保 ] 


这 两 种 情况 这 两 种 情况 ， 且 分 别 对 


五 


咏 属 性 


删除 和 不 可 山 


村 不 变 和 增加 


除 这 


两 种 结果 。 这 说 明 ， 对 于 某 个 5 取 值 ， 在 邻 域 粗 糙 集 知识 约 简 


的 过 程 中 ， 判 断 论 域 的 知识 划分 是 否 一 致 可 


以 转换 为 判断 互 为 


为 可 删 


除 属 性 ， 最 坏 的 情况 是 后 mk 个 


种 时 间 复 杂 度 的 式 子 可 简要 表示 为 : 


最 


即 
可 和 否 删 


识 划分 的 计算 。 其 中 ， 最 好 情况 是 每 次 删除 时 只 需 
需要 n 次 判断 。 
个 降 维 


最 坏 情 


维 的 过 


好 情况 下 : 


坏 情 况 下 : 


遇 性 为 可 删 


除 属性 ， 两 


lm- DOI+l Gm- DIO|+..+k: (kDIO| 


m-(m-DIU|+(m-D:(m- VIO..+k:(k-DIO| 


对 含有 n 个 属性 


的 


属性 集 而 言 ， 对 


除 判 断 时 , 需要 在 n-14 


况 是 每 次 删除 时 


盲 删 法 ”是 


的 过 程 ， 即 实 


程 ， 由 于 初始 维 


的 计算 


空间 上 


Ni: 


通常 是 一 个 很 4 


数 很 高 ， 
的 值 ， 


通 
量 是 很 大 的 。 如 果 将 降 艰 
从 0 维 


其 中 的 某 个 属性 进行 
的 实数 空间 上 对 TU 个 样本 进行 


数 空 间 
且 对 一 个 数据 集 而 言 ，k 相 较 
当 m 较 大 且 较 小 时 ， 整个 过 程 


次 判断 ， 


上 从 m 维 至 k 


过 程 改进 


维 的 过 程 ， 贝 


为 升 组 


过程， 即 实数 


1 计算 量 会 缩减 很 多 。 
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3: 对 任意 qa, eC 一 red ， 计算: 
SIG(a,red) = [Card(red) — Card(red Ua)] / Card(red); 
4: 选择 qa。 ， 其 满足 : 


SIG (a ,red)= max (SIG(a;,red)) ; 


合作 期 刊 


4.2 FARAIT 算法 的 实验 分 析 


本 部 


中 决策 属性 的 前 提 下 ， 
对 数据 集 wine、WDBC、 


分 将 对 FARAIT 算法 进行 具体 分 析 。 在 不 考虑 数据 身 


录用 入 彭 满 然 ， 等 : 基于 人 
根据 以 上 思路 ， 借 鉴 文献 [3] 中 一 种 前 向 贪心 的 算法 思想 ， 5: if SIG(a,red)>0 
根据 第 2 节 中 的 标准 1， 提 出 一 种 前 向 贪心 的 信息 表 属性 约 简 red «red Ua i 
算法 (Fast attribute reduction algorithm for information table, go to Step 2; 
FARAIT )， 用 于 对 信息 表 求 得 一 个 最 优 或 次 优 的 属性 约 简 。 else 
FARAIT 算法 提出 一 种 属性 重要 度 概念 ， 对 于 一 个 信息 表 go to Step 6; 
IS=(U,C,V, 了 f) 而 言 , 初始 化 约 简 集合 为 空 集 , 每 次 贪心 选取 重 end 
要 度 最 大 的 待 选 属性 加 入 约 简 集 合 中 。 6: return red ; 
定义 8 属性 重要 度 。 给 定 信 息 表 IS=(U,C,V,f), BcC,， 设 在 该 算法 下 ， 假 设 某 一 数据 集 有 TU 个 样本 ，m 个 属性 ， 
且 B#， VaeC-B， 定 义 4 相 对 于 8 的 重要 度 为 : 依次 对 各 属性 进行 判断 , 约 简 结果 中 包含 k 个 属性 ,。 则 FARAIT 
SIG(a,B)=[Card(B)— Card(BUa)]/ Card(B) 算法 时 间 复 杂 度 的 式 子 可 简要 表示 为 
其 中 ，Card(B) 表示 根据 属性 集 B 形成 的 邻 域 信息 粒子 中 互 为 m-1:|U|+(m-D-2:|U|+...+ Cm- RE+DIV) 
邻 域 样本 的 对 数 。 可 见 ， 因 为 引用 了 贪心 思想 ，FARAIT 算法 能 用 较 短 的 时 
在 约 简 集合 中 加 入 属性 时 ， 实 数 空间 上 的 升 维 过 程 会 让 各 ” 间 得 到 一 个 最 优 或 次 优 的 属性 约 简 
le a - 和 4 。 实验 分 析 
量 各 属性 的 重要 度 。 属 性 重要 度 可 以 理解 为 通过 该 属性 区 分 样 
本 的 能 力 。 例 如 ， 一 个 信息 表 按 照 原 0 “男生 ” 作为 一 种 有 效 的 无 监督 性 降 维 算法 ， PCA 算法 在 人 工 智 
和 “女生 ”两 个 类 别 ， 在 贪心 选择 时 ,“ 身 高 ”和 “脸型 ” 这 两 。 能 、 模 式 识别 、 图 像 处 理 等 方面 得 到 了 广泛 的 应 用 [9-!。 实 验 
个 属性 的 重要 度 不 同 。 在 实数 空间 上 “上 脸型 ”数值 的 分 布 较 均 。 首先 讨论 5 的 取 值 对 FARAIT 算法 的 的 影响 ， 确 定 较为 合适 的 
匀 ,“ 身 高 ”数值 的 分 布 呈 两 边 逐 步 向 中 间 聚 集 。 相 比 之 下 , 在 5 的 取 值 ; 然后 , 在 此 6 的 取 值 下 , 用 FARAIT 算法 和 PCA 算 
约 简 集合 中 加 入 “身高 ”属性 能 使 互 为 邻 域 样本 的 对 数 减 少 得 ”法 分 别 对 数据 集 进行 降 维 处 理 ， 用 K-means 算法 对 降 维 后 的 数 
更 多 ， 本 文 认 为 其 区 分 能 力 更 强 ， 属 性 重要 度 更 高 。 据 集 进行 聚 类 ; 最 后 ， 实 验 将 比较 得 到 的 属性 约 简 个 数 和 K- 
相 比 “ 盲 删 法 ”前 向 搜索 算法 能 够 确保 重要 的 属性 首先 被 ”means 算法 的 聚 类 精度 。 其 中 ，K-means 算法 用 于 检验 两 种 算 
加 入 到 约 简 中 ， 从 而 不 损失 重要 的 属性 ， 而 “ 盲 删 法 ” 却 难 以 ” ”法 的 降 维 效果 ， 且 K-means 算法 的 初始 聚 类 中 心 个 数 设置 为 数 
保证 这 个 结果 。 因 为 对 于 有 大 量 抑 余 属 性 的 信息 表 而 言 ， 即 使 《《” 据 集 提 供 的 类 别 数 。 
那些 重要 的 属性 被 删除 也 不 一 定 会 降低 整个 系统 的 区 分 能 力 ， 4.1 实验 环境 
因此 ， 系 统 最 终 可 能 保留 了 大 量 区 分 能 力 很 弱 、 但 作为 一 个 整 UCI(University of California Irvine)(http://archive.ics.uci. 
体 依 然 能 够 保持 原始 数据 的 分 辨 能 力 的 属性 ， 而 不 是 少量 区 分 。 edu/ml/) 提 供 了 一 系列 用 于 测试 的 标准 数据 集 。 本 文 从 UCI 数 
能 力 很 强 的 属性 。 据 集 中 挑选 了 7 个 数值 型 数据 集 ， 其 中 ， 每 个 数据 集 提供 了 条 
FARAIT 算法 的 具体 策略 如 下 : 初始 化 属性 约 简 集合 为 室 。“ 件 属性 和 决策 属性 。 
集 ， 每 次 对 不 属于 属性 约 简 集合 中 的 属性 进行 重要 度 计算 ， 选 表 2 数据 集 描述 
取 重 要 度 值 最 大 的 属性 加 入 约 简 集合 中 ， 直 到 所 有 剩余 属性 的 数据 集 样本 数 ”属性 数 “类别 数 
重要 度 为 0， 此 时 ， 根 据 约 简 集合 形成 的 邻 域 信 息 粒 子 中 互 为 178 13 3 
邻 域 样本 的 对 数 不 再 变化 ， 本 文 认 为 对 应 的 知识 划分 与 在 原 属 WDBC 569 30 2 
性 集 下 形成 的 知识 约 简 一 致 或 相似 ， 任 意 剩余 属性 在 标准 1 下 on 208 60 2 
均 是 可 删除 属性 。 如 算法 1 所 示 。 jonogphere 351 33 2 
算法 1 creditapproval 。 690 13 2 
6 german credit 1000 24 2 
Output: 属性 约 简 red . WPBC 198 本 
1: 初始 化 yeqd=@ 
2: if Card(red)=0 // 此 处 定义 Card(@)=|UP /2 本 次 实验 在 一 台 Intel(R) Core(TM) i5 CPU 和 4GB 内 存 的 
go to 6; PC 机 上 ， 采 用 Windows 7 环境 下 的 MATLAB R2016b 进行 算 
end 法 仿真 。 


mt 


首先 在 不 同 的 5 取 值 下 用 FARAIT 算法 
sonar 进行 降 维 ， 然 后 用 K-means 算 
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录用 稿 彭 潇 然 ， 等 : AAA 分 的 信息 表 降 维 


法 对 降 维 后 的 数据 集 和 原 数 据 集 分别 进 行 聚 类 。 记 录 属 性 约 简 。 这 说 明 在 数据 集 wine 中 不 存在 仅 靠 个 别 属性 就 能 将 各 样本 进 
的 个 数 ， 且 将 得 到 的 两 种 聚 类 结果 和 数据 集中 提供 的 决策 属性 ， 行 正确 聚 类 的 情况 ， 且 元 余 属 性 很 少 ; 在 (b) 中 ， 在 5 很 小 时 ， 
进行 对 比 ， 统 计 各 自 正 确 聚 类 的 样本 个 数 并 计算 正确 率 ( 精 度 )， ”对 应 的 折线 部 分 远 高 于 横 线 ， 然 后 迅速 下 降 ， 这 说 明 在 数据 全 
从 而 确定 较为 合适 的 5 的 取 值 。 WDBC 中 存在 仅 靠 个 别 属性 就 能 将 各 样本 进行 正确 归 类 的 情 
4.2.1 6 的 取 值 和 属性 约 简 个 数 况 ， 元 余 属 性 很 多 且 严 重 影响 聚 类 精度 ; 在 () 中 ， 折 线 大 致 处 
根据 定义 4 可 知 ，2 的 取 值 直接 影响 着 属性 约 简 的 结果 。 ”于 横 线 上 方 且 呈现 明显 的 递减 状态 ， 这 说 明 在 数据 集 sonar 中 
在 不 同 的 5 取 值 下 ， 算 法 得 到 的 属性 约 简 不 同 ， 这 会 造成 根据 ， 存在 仅 靠 个 别 属 性 就 能 将 各 样本 进行 正确 归 类 的 情况 ， 元 余 属 
遇 性 约 简 进 行 聚 类 后 ,所 得 的 聚 类 精度 不 同 。 本 文 在 区 间 [0,1] 性 很 多 且 影响 聚 类 精度 。 
上 ， 按 0.02 增进 ， 共 取得 51 个 5 取 值 ， 记 录 在 不 同 的 6 取 值 
对 应 的 属性 约 简 个 数 和 聚 类 精度 , 其 中 K-means 算法 执行 20 
次 ， 聚 类 精度 的 最 后 结果 取 均 值 。 


7 


和 


> 
5 的 取 值 与 属性 约 简 个 数 的 关系 如 图 2 所 示 。 ® 
3 
60 
后 
2 40 | 
问 0 02 04 06 0.8 1 
E DELTA value 
3 20 (a) 数 据 集 wine 
0.95 
| | 
0 02 04 06 08 1 
DELTA Value 全 
[a] 
图 2 6 的 取 值 与 属性 约 简 个 数 的 关系 3 0.9 
Oo 
[3 
如 图 2 所 示 ， 对 同一 数据 集 ，6 的 取 值 不 同时 ， 所 得 的 属 
性 约 简 个 数 也 不 同 。 从 0 开始 ， 随 着 6 取 值 的 增 大 ， 所 得 属性 0.85 | 
约 简 的 个 数 增 大 ， 直 到 增 大 到 和 原 属 性 集 长 度 一 致 时 稳定 ， 称 0 02 04 06 0.8 1 
此 时 的 5 取 值 为 饱和 点 。 BELIAYaUD 


(b) 数 据 集 WDBC 


4.2.2 6 的 取 值 和 -means 算法 的 聚 类 精度 

5 的 取 值 与 聚 类 精度 的 关系 如 图 3 中 (a)、(b)、(c) 所 示 。 

分 析 图 3 中 (a)~(c)， 横 线 代表 原 属性 集 的 聚 类 精度 ， 折 现 

代表 不 同 6 取 值 下 对 应 属性 约 简 的 聚 类 精度 ， 虚 线 代 表 饱 和 点 。 
以 饱和 点 为 基准 ， 将 图 3 中 (a)~(c) 分 为 前 后 两 部 分 ， 对 同 

一 数据 集 的 原 属性 集 而 言 ， 前 半 部 分 对 应 着 在 不 同 5 取 值 下 的 

属性 约 简 ， 后 半 部 分 对 应 着 原 属性 集 。 


分 析 后 半 部 分 : 在 各 图 中 ， 折 线 均 在 横 线 附近 波动 ， 这 说 0 0.2 0.4 0.6 0.8 1 
明 初 选 点 的 选择 影响 K-means 算法 聚 类 效果 的 稳定 性 。 可 以 用 JAYVa US 


(c) 数 据 集 sonar 
图 3 的 取 值 与 K-means 聚 类 精度 的 关系 


折线 相对 于 横 线 的 波动 程度 表示 K-means 算法 针对 各 数据 集 的 

聚 类 效果 的 稳定 性 。 在 (a) 中 ， 折 线 相对 横 线 略 有 波动 ， 这 说 明 

K-means 算法 对 数据 集 wine 的 聚 类 效果 较 稳 定 ; 在 (b) 中 , 折线 。 4.2.3 FARAIT 算法 的 实验 结论 

与 横 线 完全 契合 ， 这 说 明 K-means 算法 对 数据 集 WDBC 的 聚 根据 以 上 分 析 可 知 : 在 5 的 取 值 合理 的 情况 下 ， 基 于 前 向 
类 效果 极 稳定 ;在 (c) 中 ， 折 线 相对 横 线 波动 较 大 ， 这 是 因为 在 。 ”贪心 的 信息 表 属 性 约 简 算法 能 有 效 删 除数 据 集中 的 匈 余 属性 ， 
本 次 实验 的 5 取 值 下 ， 对 数据 集 sonar 得 到 的 属性 约 简 长 度 仍 ” ”在 一 定 程度 上 消除 见 余 属性 对 聚 类 精度 的 干扰 ， 优 化 聚 类 算法 


未 趋 于 稳定 。 的 性 能 
分 析 前 半 部 分 : 首先 ， 随 着 5 取 值 的 增 大 ， 各 图 中 的 折线 考虑 K-Means 算法 的 不 稳定 性 ， 相 对 来 说 ， 对 于 K-means 


均 存在 高 出 横 线 后 又 低 于 横 线 的 情况 ， 这 说 明 各 数据 集中 均 存 ”算法 而 言 ，5 在 区 间 [0.14,0.18] 上 取 值 时 ，K-means 算法 的 聚 
在 可 以 删除 的 匈 余 属性 ， 且 这 些 见 余 属性 会 降低 聚 类 精度 。 在 。 ”类 效果 较为 理想 。 在 对 应 的 5 取 值 下 ， 得 到 的 属性 约 简 个 数 小 
(a) 中 ， 折 线 起 点 处 于 横 线 下 方 且 随 着 5 的 增 大 呈现 递增 状态 ， ”于 原 数据 集 且 聚 类 精度 高 于 原 数据 集 。 
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4.3 FARAIT 算法 与 PCA 算法 的 对 比 聚 类 的 无 监督 性 信息 表 降 维 算 法 。 在 处 理 数 值 型 信息 表 时 ， 可 

根据 4.2 中 的 实验 结论 ， 对 FARAIT 算法 设置 5=0.16， 对 “采用 该 算法 对 数据 进行 预 处 理 , 用 以 删除 信息 表 中 的 元 余 信 息 ， 
PCA 算法 设置 阔 值 为 0.85， 首先 分 别 用 这 两 种 降 维 算法 对 数据 ”保持 甚至 提高 聚 类 精度 ， 优 化 聚 类 算法 的 性 能 。 在 本 文 的 实验 
集 进 行 降 维 处 理 ， 最 后 用 K-means 算法 对 降 维 后 的 数据 集 进 行 。” 分 析 部 分 ,可 以 看 出 6 的 取 值 直接 影响 着 FARAIT 算法 的 效果 ， 
聚 类 ， 统 计 各 自 对 应 的 属性 约 简 个 数 和 聚 类 精度 。 其 中 ，K- ” 合适 的 6 的 取 值 能 让 FARAIT 算法 的 效果 达到 最 好 ， 不 合适 的 


r= 


means 算法 执行 20 次 ， 聚 类 精度 的 最 后 结果 取 均 值 。 实 验 结果 5 的 取 值 则 会 使 FARAIT 算法 的 效果 一 般 ， 甚 至 很 差 。 对 于 不 
如 表 3 所 示 。 同 特性 的 聚 类 算法 , 6 的 取 值 为 多 少时 FARAIT 算法 效果 最 好 ， 
表 3 FARAIT 算法 和 PCA 算法 的 实验 结果 对 比 从 而 让 聚 类 效果 较 优 ， 这 个 问题 将 在 未 来 的 工作 中 进行 研究 。 
数据 集 FARAIT 算法 PCA 算法 
名 称 属性 数 后 
个 数 精度 个 数 精度 里 
wine 13 9 0.9602 6 0.9302 z 
与 
WDBC 30 23 0.9283 10 0.9279 他 
sonar 60 11 0.5962 15 0.5430 S 
© 
ionosphere 34 23 0.7123 15 0.7043 8 
credit approval 14 14 0.7610 5 0.7142 1 2 A 5 6 二 
german credit 24 16 0.5524 13 0.5552 numbers of data sets 
WPBC 22 9 0.5758 人 0.5827 图 5 FARAIT 和 PCA 在 K-means 聚 类 精度 上 的 对 比 
平均 值 28.14 15 0.7266 10.14 0.7082 


参考 文献 : 
根据 表 3 作出 在 两 种 降 维 算 法 下 得 到 的 属性 约 简 个 数 和 K- 
means 算法 的 聚 类 精度 的 折线 图 ， 如 图 4、5 所 示 。 [1] 痪 玲 , 蔡 益 朝 , 杨 征 . 高 维 数据 聚 类 方法 综述 [J]. 计算 机 应 用 研究 ， 
2010, 27 (1): 23-26. 


[2] Pawlak Z, So-Winski R. Rough set approach to multi-attribute decision 
—+— FARAIT 


—e— PCA analysis [J]. European Journal of Operational Research, 1994, 72 (3): 443- 
— 晶 — raw data 459. 


[3] Zadeh LA. Towards a theory of fuzzy information granulation and its 


centrality in human reasoning and fuzzy logic [J]. Fuzzy Sets & Systems, 


reduction length 


1997, 90 (90): 111-127. 


[4] Lin TY. Granular Computing on binary relations I: Data mining and 


1 攻 3 4 5 6 7 
numbers of data sets neighborhood systems [J]. Rough Sets in Knowledge Discovery, 1998 (2): 


165-166. 


图 4 FARAIT 和 PCA 在 属性 约 简 个 数 上 的 对 比 


[5] Hu Q, Yu D, Liu J, Wu C. Neighborhood rough set based heterogeneous 


在 图 4 中 ,相对 而 言 ,代表 原始 属性 集 的 折线 处 于 最 上 方 ， feature subset selection [J]. Information Sciences, 2008, 178 (18): 3577- 
代表 FARAIT 算法 的 折线 处 于 中 间 ， 代 表 PCA 算法 的 折线 处 3594. 
于 最 下 方 。 这 说 明 FARAIT 算法 和 PCA 算法 都 能 有 效 地 减少 6] 王国 负 . Rough 集 理论 与 知识 获取 [M]. 西安 : 西安 交通 大 学 出 版 社 ， 
数据 集 的 属性 数 ， 达 到 降 维 的 目的 。 其 次 ， 相 较 PCA 算法 ， 2001: 147-156. 
FARAIT 算法 得 到 的 属性 约 简 个 数 较 多 。 7] 硼 清华 , 于 达 人 . 应 用 粗糙 计算 [M]. 北京 : 科学 出 版 社 , 2012. 
在 图 5 中 ， 相 对 而 言 ， 代 表 FARAIT 算法 的 折线 处 于 PCA 8] 刘 遵 仁 , 吴 耿 锋 . 基于 邻 域 粗 糙 模 型 的 高 维 数据 集 快速 约 简 算 法 [J 
算法 的 上 方 。 这 说 明 相 较 PCA 算法 ， 采 用 FARAIT 算法 降 维 计算 机 科学 , 2012, 39 (10): 268-271. 
后 ，K-means 算法 的 聚 类 精度 较 高 。 9] Liu Y, Huang W, Jiang Y, Zeng Z. Quick attribute reduct algorithm for 
综 上 可 知 : 相 较 PCA 算法, 采用 FARAIT 算法 降 维 后 得 到 neighborhood rough set model [J]. Information Sciences, 2014, 271 (7): 65- 
的 属性 约 简 个 数 较 多 ，K-means 算法 的 聚 类 精度 较 高 。 81. 


pe [10] Chen H, Li T, Cai Y, et al. Parallel Attribute Reduction in Dominance-based 
5 结束 语 


Neighborhood Rough Set [J]. Information Sciences, 2016, 373: 351-368. 


为 了 扩展 邻 域 粗 糙 集 对 信息 表 的 应 用 ， 设 计 了 一 种 适用 于 [11] Wang C, Shao M, He Q, et al. Feature subset selection based on fuzzy 


201805.00236v1 


chinaXiv 


录用 稿 


neighborhood rough sets [J]. Knowledge-Based Systems, 2016, 111: 173- 
179. 

[12] Chen Y, Zhang Z, Zheng J, et al. Gene selection for tumor classification 
using neighborhood rough sets and entropy measures. [J]. Journal of 
Biomedical Informatics, 2017, 67: 59-68. 


[13] 王 健 冯 健 , 韩 志 艳 . 基于 流 形 学 习 的 局 部 保持 PCA 算法 在 故障 检测 


Ey 


本 Shinaxiy 合 作 期 刊 
彭 满 然 ， 等 : 基于 邻 域 粗 糙 集 下 知识 划分 的 信息 表 降 维 


中 的 应 用 [J]. 控制 与 决策 , 2013 (5): 683-687. 

[14] 刘 丽 敏 ， 攀 晓 平 ， 麻 志 芳 ,等 . 一 种 基于 L2, 1 范 数 的 PCA 维 数 约 简 工 
法 [J]. 计算 机 应 用 研究 , 2013, 30 (1): 39-41. 

[15] Hosoya H, Hyvirinen A. Learning Visual Spatial Pooling by Strong PCA 


Dimension Reduction [J]. Neural Computation, 2016, 28 (2): 1-16. 


